David silver 强化学习 Lecture 4
距离上次更新已经 1713 天了,文章内容可能已经过时。
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture 4的课程内容,这一讲简单介绍了不基于模型的预测。
介绍
上一讲介绍了如何通过DP进行规划,那里假设MDP已知;这一讲介绍不基于模型的预测,即对未知的MDP预测其价值函数。
蒙特卡洛学习
目标:通过策略
下的信息学习注意回报(return)是折扣奖励:
回报价值函数是回报(return)的期望:
蒙特卡洛策略评估使用经验均值回报而非期望回报
具体方式如下:
- 为了评估状态
- 在一幕(episode)中访问状态
的第一个(每一个)时间戳 - 增加计数器
- 增加总回报
- 价值通过回报的均值估计
- 根据大数定律,随着
,
增量均值
序列
增量MC更新
根据上述公式,可以通过增量方式更新
对于回报为
的状态在非平稳问题中,跟踪连续平均值(即忘掉旧幕(episodes))可能很有用。
时序差分学习(Temporal-Difference Learning)
- TD方法可直接从经验中学习
- TD是不基于模型的:不需要了解MDP转移/奖励
- TD通过bootstrapping从不完整的幕中学习
- TD根据猜测更新猜测
MC and TD
目标:在策略
下根据经验在线学习增量MC
- 根据实际回报
更新价值
- 根据实际回报
考虑最简单的时序差分算法:
通过估计回报
更新 被称为TD目标 被称为TD误差
MC vs TD的优劣势对比(1)
- TD在知道最终结果之前就可以学习
- TD可以在每一步后在线学习
- MC必须等到每一幕结束后知道回报的时刻
- TD可以在不知道最终结果的条件下学习
- TD可以从不完全序列中学习
- MC只能从完全序列中学习
- TD可以在连续(非终止)环境中运行
- MC只能在幕(终止)环境中运行
偏差/方差权衡
- 回报
是 的无偏估计 - 真正的TD目标
是 的无偏估计 - TD目标
是 的有偏估计 - TD目标比回报的方差要小的多:
- 因为回报依赖于很多随机动作,转移以及奖励
- TD目标只依赖一个随机动作,转移以及奖励
MC vs TD的优劣势对比(2)
- MC有高方差,无偏
- 很好的收敛性
- 对初始值不敏感
- 很好理解和使用
- TD有低方差,有偏
- 通常比MC更高效
- TD(0)收敛于
- 对初始值更敏感
批量MC和TD
MC和TD都收敛:
随着经验但是对于有限经验的批处理解决方案呢?
- 例如:重复对第
幕采样 - 对第
幕应用MC或
- 例如:重复对第
MC vs TD的优劣势对比(3)
由TD的表达式,不难得到
- TD利用了马尔可夫性
- 通常在马尔可夫环境下更高效
- MC没有利用马尔可夫性
- 通常在非马尔可夫环境下更高效
对比
MC
TD
DP
Bootstrapping和采样
- Bootstrapping:更新涉及估计
- MC不使用Bootstrap
- DP使用Bootstrap
- TD使用Bootstrap
- 采样:
- MC使用采样
- DP不使用采样
- TD使用采样
假设
步回报
考虑如下
步回报:定义
步回报 步时序差分学习
回报
接下来考虑对不同步数的回报做加权:
回报 结合了所有 步回报使用权重
的前向视角(Forward-view)
的前向视角
- 通过
回报更新价值函数 - 通过对未来的前瞻性计算
- 像MC一样,只能根据完整的幕(episodes)计算
的反向视角
- 前向视角提供理论
- 反向提供了机制
- 从不完整的序列在线更新每一步
为了讨论反向视角,首先定义合格轨迹:
保持每个状态
的合格轨迹对每个状态
更新更新项正比于TD-误差
和合格轨迹
和
当
,只有当前状态被更新这等价于
更新
和MC
考虑在时间戳
一次访问 的一幕考虑
的合格轨迹 更新在线累积误差在幕结束时,累计误差为
利用公式
对其处理可得所以
更一般的,我们有如下定理:
定理
对于
总之,
离线更新
离线更新
- 更新在一幕中累积
- 但在幕结束时批量应用
在线更新
在每一幕的每一步中都进行更新 的前向反向视角有所不同
总结
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere
Powered By Valine
v1.5.2
v1.5.2